Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
区分计算机生成(CG)和自然摄影图像(PG)图像对于验证数字图像的真实性和独创性至关重要。但是,最近的尖端生成方法使CG图像中的合成质量很高,这使得这项具有挑战性的任务变得更加棘手。为了解决这个问题,提出了具有深层质地和高频特征的联合学习策略,以进行CG图像检测。我们首先制定并深入分析CG和PG图像的不同采集过程。基于这样的发现,即图像采集中的多个不同模块将导致对图像中基于卷积神经网络(CNN)渲染的不同敏感性不一致,我们提出了一个深层纹理渲染模块,以增强纹理差异和歧视性纹理表示。具体而言,生成语义分割图来指导仿射转换操作,该操作用于恢复输入图像不同区域中的纹理。然后,原始图像和原始图像和渲染图像的高频组件的组合被馈入配备了注意机制的多支球神经网络,该神经网络分别优化了中间特征,并分别促进了空间和通道维度的痕量探索。在两个公共数据集和一个具有更现实和多样化图像的新构建的数据集上进行的广泛实验表明,所提出的方法的表现优于现有方法,从而明确的余量。此外,结果还证明了拟议方法后处理操作和生成对抗网络(GAN)生成的图像的检测鲁棒性和泛化能力。
translated by 谷歌翻译
时间图神经网络(TGNN)由于能够捕获图形拓扑依赖性和非线性时间动力学的能力而广泛用于建模与图形相关的任务。TGNN的解释对于透明和值得信赖的模型至关重要。但是,复杂的拓扑结构和时间依赖性使解释TGNN模型非常具有挑战性。在本文中,我们为TGNN模型提出了一个新颖的解释器框架。给定图表上的时间序列待解释,该框架可以在一个时间段内以概率图形模型的形式识别出主要的解释。关于运输域的案例研究表明,所提出的方法可以在一段时间内发现道路网络中的动态依赖性结构。
translated by 谷歌翻译
高性能的交通流量预测模型设计是一种智能运输系统的核心技术,是工业和学术社区的长期挑战,但仍然具有挑战性。物理原理和数据驱动模型之间缺乏整合是限制该领域发展的重要原因。在文献中,基于物理学的方法通常可以清楚地解释交通流系统的动态过程,但准确性有限,而数据驱动的方法,尤其是使用黑色盒子结构的深度学习,可以提高性能,但不能由于缺乏合理的身体依据,因此要完全信任。为了弥合纯粹数据驱动和物理驱动的方法之间的差距,我们提出了一个物理学引导的深度学习模型,名为时空微分方程网络(STDEN),该模型将交通流动器的物理机理投入到深度神经网络框架中。具体而言,我们假设道路网络上的交通流量是由潜在势能场驱动的(例如水流是由重力场驱动的),并将势能场的时空动态过程作为微分方程网络进行建模。 Stden吸收了数据驱动模型的性能优势和基于物理模型的可解释性,因此被命名为物理指导的预测模型。北京三个现实世界流量数据集的实验表明,我们的模型的表现优于最先进的基线。案例研究进一步验证了stden可以捕获城市交通机制,并具有物理含义的准确预测。提出的微分方程网络建模的框架也可能会阐明其他类似的应用程序。
translated by 谷歌翻译
二进制代码相似性检测(BCSD)方法测量了两个二进制可执行代码的相似性。最近,基于学习的BCSD方法取得了巨大的成功,在检测准确性和效率方面表现优于传统的BCSD。但是,现有的研究在基于学习的BCSD方法的对抗脆弱性上相当稀疏,这会导致与安全相关的应用程序危害。为了评估对抗性的鲁棒性,本文设计了一种高效且黑色的对抗代码生成算法,即FuncFooler。 FuncFooler限制了对抗代码1)保持程序的控制流程图(CFG)和2)保持相同的语义含义。具体而言,funcfooler连续1)在恶意代码中确定脆弱的候选人,2)从良性代码中选择和插入对抗性指令,以及3)纠正对抗代码的语义副作用以满足约束。从经验上讲,我们的FuncFooler可以成功攻击包括Safe,ASM2VEC和JTRAN在内的三种基于学习的BCSD模型,它们质疑是否需要基于学习的BCSD。
translated by 谷歌翻译
动机:癌症是异质的,影响了个性化治疗的精确方法。准确的亚型可以导致癌症患者的生存率更好。高通量技术为癌症亚型提供了多个OMIC数据。但是,由于OMICS数据的大量和高维度,精确的癌症亚型仍然具有挑战性。结果:这项研究提出了基于MLP和变压器块的深度学习方法拟议的亚型形式,以提取多摩学数据的低维表示。 K-均值和共识聚类也用于获得准确的亚型结果。我们比较了TCGA 10癌症类型的其他最先进的亚型方法。我们发现,基于生存分析,亚型形式可以在5000多个肿瘤的基准数据集上表现更好。此外,亚型形式还取得了泛滥亚型的出色结果,这可以帮助分析分子水平上各种癌症类型的共同点和差异。最后,我们将亚型格式应用于TCGA 10类型的癌症。我们确定了50种基本生物标志物,可用于研究靶向癌症药物并促进精密医学时代的癌症治疗。
translated by 谷歌翻译
时空数据挖掘的目的是在大空间和时空数据中发现有趣的,有用但非平凡的模式。它们用于各种应用领域,例如公共安全,生态学,流行病学,地球科学等。由于虚假模式的社会成本和高昂的计算成本,因此这个问题具有挑战性。由于快速增长而导致的时空数据挖掘需求更新的最新调查。此外,他们没有充分调查时空数据挖掘的并行技术。本文提供了对时空数据挖掘方法的最新调查。此外,它对时空数据挖掘的平行配方进行了详细的调查。
translated by 谷歌翻译
为了跟踪视频中的目标,当前的视觉跟踪器通常采用贪婪搜索每个帧中目标对象定位,也就是说,将选择最大响应分数的候选区域作为每个帧的跟踪结果。但是,我们发现这可能不是一个最佳选择,尤其是在遇到挑战性的跟踪方案(例如重闭塞和快速运动)时。为了解决这个问题,我们建议维护多个跟踪轨迹并将光束搜索策略应用于视觉跟踪,以便可以识别出更少的累积错误的轨迹。因此,本文介绍了一种新型的基于梁搜索策略的新型多代理增强学习策略,称为横梁。它主要是受图像字幕任务的启发,该任务将图像作为输入,并使用Beam搜索算法生成多种描述。因此,我们通过多个并行决策过程来将跟踪提出作为样本选择问题,每个过程旨在将一个样本作为每个帧的跟踪结果选择。每个维护的轨迹都与代理商相关联,以执行决策并确定应采取哪些操作来更新相关信息。处理所有帧时,我们将最大累积分数作为跟踪结果选择轨迹。在七个流行的跟踪基准数据集上进行了广泛的实验证实了所提出的算法的有效性。
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译